从半结构化文件中提取信息对于无摩擦企业对企业(B2B)通信至关重要。尽管已经研究了与文档信息提取(IE)有关的机器学习问题数十年来,但许多常见的问题定义和基准并不能反映针对域特定方面和自动化B2B文档通信的实际需求。我们回顾文档的景观IE问题,数据集和基准。我们重点介绍了共同定义中缺少的实际方面,并定义了关键信息本地化和提取(KILE)和行项目识别(LIR)问题。由于其内容通常受到法律保护或敏感,因此缺乏用于半结构化业务文档的文档IE的相关数据集和基准。我们讨论了包括合成数据在内的可用文档的潜在来源。
translated by 谷歌翻译